Model Selection

Multimodal Image Reasoning

# Multimodal Image Reasoning

Llama 3.2 11b Vision R1 Distill

Llama 3.2-Vision is a multimodal large language model developed by Meta, supporting image and text inputs, optimized for visual recognition, image reasoning, and description tasks.

Transformers Supports Multiple Languages

Llama 3.2 11B Vision Instruct

Llama 3.2-Vision is a multimodal large language model developed by Meta, supporting both image and text inputs, capable of tasks such as visual recognition, image reasoning, and captioning.

Transformers Supports Multiple Languages

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase